# PCI Express ボードの 電源設計と高速データ転送技術

マルチ電源ボードの電源設計を習得しよう



高速データ転送が行える PCI Express は、パソコンやサーバ だけでなく、検査装置や医療機器などの産業機器にも採用され 始めてきた. 高速トランシーバを内蔵した FPGA を用いると、 PCI Express のすべての機能を 1 チップで実現できる、設計期 間を短縮し、基板配線効率が向上するため FPGA という選択肢 が注目されている. 本稿では高速トランシーバ内蔵 FPGA(米 国 Xilinx 社 Virtex-5) を搭載した x8 PCI Express アドイン・ カードの開発を例にとり、マルチ電源 LSI の電源設計や PCI Express の高速データ転送を実現するための FPGA 設計ついて 解説する. (筆者)

## 電源デバイス選定のポイントと ノイズ対策

#### ● 開発した PCI Express ボード

今回開発した FPGA 搭載 PCI Express アドイン・カード 「TB-5V-LX/110T-PCIEXP」の概要を説明します.

FPGA は,米国 Xilinx 社の Virtex-5 LXT/SXT シリー ズの「XC5VLX110T」を搭載しています. 本 FPGA は高速 トランシーバ(RocketIO)を内蔵しており, PCI Express やDDR2メモリ,光モジュールなどへの高速伝送を評価で きます.またEthernet PHY やデバッガ専用 MICTOR コ ネクタによるプロセッサ評価も可能です. 本アドイン・ カードの特徴を写真1に示します.

#### ■ コアやRocketIOの電源デバイス選定方法

Xilinx 社の高速トランシーバ内蔵 FPGA を使って PCI

Express アドイン・カードを設計するには, RocketIOと 呼ばれる高速トランシーバを使います.その際, FPGAに 供給する電源の設計が重要となります. 本稿では, 電源デ バイスの選定方法や使用方法について説明します.

- FPGA の Rocket IO 用の電源デバイス(写真2の)
- 基板外形寸法( CEM Specification )の要求を満たすため の部品実装効率が高い3出力スイッチング・レギュレー タ(写真2の)
- DDR2 SDRAM の終端に対応した2出力電源(写真2の
- DC-DC コンバータの1次側入力(12V)に発生するスイッ チング・ノイズを低減するためのフェライト・ビーズ(写 真2の )

#### ● 専用ソフトウェアを用いて消費電力を見積もる

電源仕様を決定するために, FPGA とほかの部品の消費 電力を求める必要があります、本アドイン・カードの設計 において最も重要な Virtex-5 の消費電力の見積もりには, Xilinx 社のソフトウェア「XPower Estimator」を使用しま した.以下に示すパラメータを入力すると,デザインの消 費電力を早い段階で見積もれます.

- 回路規模(ロジック・セルとフリップフロップの数)
- 動作周波数
- トグル・レート
- 専用機能ブロックの使用数
- 温度条件

今回はXC5VLX110Tをターゲットにし,以下に示す動

PCI Express, アドイン・カード, マルチ電源, Virtex-5, RocketIO, DDR2, FPGAコア, DMA 転送, フェライト・ビーズ,3端子コンデンサ,MicroBlaze

51

作条件を想定して消費電力を見積もりました.

- ロジック・リソース使用率 93 %
- RocketIO 使用率 100 %
  PCI Express x8( 2.5Gbps ), SFP x2( 3.2Gbps ), MMCX x2( 3.2Gbps ), Samtec LVDS 高速インターフェース・コネクタ( 3.2Gbps )
- DDR2 333MHz
- MicroBraze 100MHz

結果は図1のようになりました(右掲のコラム「スロットの最大消費電力には要注意!」を参照). 今回はPCI Express 設計で重要な, FPGAのRocketIO用電源, FPGAコア電源, DDR2用電源, に着目し, 説明します.

#### ● 電源仕様と小型化を両立できる電源デバイスを選定

今回開発したボードは,アドイン・カードの基板外形寸法(CEM Specification)を満たす必要がありました.そのため,少しでも実装スペースが小さくなるようにFPGAとDDR2 SDRAMの電源部品を選定しました.

- 1)RocketIO 用電源:2段構成で消費電力を節約
- PCI Express を実現するためには, RocketIOの電源が 一番重要です.以下のような注意点があります.
- 信号品質の維持や安定動作のため,ボード上のノイズから遮断する必要がある
- ●前述の理由からリプル・ノイズを除去するためにLDO (Low Dropout)リニア・レギュレータを使う必要がある
- RocketIO ブロック(GTP\_DUAL)ごとに電源ピン近傍

#### 写真1 PCI Express **アドイン・** カードの特徴

今回開発した PCI Express アドイン・カードは Virtex-5 LXT/SXTシリーズのFPGA を搭載し, PCI Expressや DDR2メモリ,光モジュー ルなどへの高速伝送が評価 できる. 本ボードには以下 の3種類の設計例が付属す る . (1)画像データ DMA 転 送サンプル・デザイン(アド イン・カード パソコン), (2)RocketIO 伝送評価サン プル・デザイン(Aurora, 8B10B, PRBS), (3) MicroBlaze から動かす内蔵 TEMAC サンプル・デザイン





#### 写真2 アドイン・カードで使用 している電源デバイス

本ボードに使用した電源デバイスを示す、RocketIOを使用し高速シリアル・インターフェースを実現するためFPGAに供給する電源設計が重要となる。

にローパス・フィルタを接続する必要がある(図2)

リニア・レギュレータは,消費電力が $V_{in}$ と $V_{out}$ の電圧差に比例します.供給電圧の 12V 入力から直接 1.2V と 1.0Vを生成すると,発熱問題が生じます.そこで,12V からスイッチング・レギュレータにより 1.5V を生成し,1.5V からリニア・レギュレータを使って 1.2V と 1.0V を生成する構成としました.

12Vから1.5Vを生成する電源デバイスとして、米国 Linear Technology 社のLTM4602(6A)とLTM4600(10A)の検討を進めました.両者はピン互換なので、今後、上位 互換のFPGAに移行した場合にRocketIOに十分な電流を供給できます.今回はあらかじめ10A品のLTM4600を選定しました.LTM4600は、スイッチング・レギュレータで必要なFETやインダクタを内蔵したDC-DCコンバータ・モジュールです.

LDO リニア・レギュレータとしては ,  $210\mu V_{RMS}$  と低ノ



#### 図1 PCI Express アドイン・カード電源仕様

本ボードの電源仕様を示す.XC5VLX110Tをターゲットにし,ロジック・リソース使用率93%,RocketIO使用率100%でPCI Express x8(2.5Gbps), SFP x2(3.2Gbps),MMCX x2(3.2Gbps),Samtec LVDS 高速インターフェース・コネクタ(3.2Gbps),DDR2(333MHz),MicroBraze(100MHz)などを想定した.



#### 文 2

#### RocketIO 設計における注意点

PCI Express を実現するために, RocketIO 用電源が一番重要となる. リプル・ノイズを除去するためLDO リニア・レギュレータを用いる. 高速 トラン シーバ 回路 ブロック (GTP\_DUAL タイル)ごとに電源ピン 近傍にローパス・フィルタを接続する必要がある.

### スロットの最大消費電力には要注意!

コラム 1

表A-1 のように PCI Express アドイン・カードに供給できるスロットの最大消費電力は用途によって異なります. 例えばデスクトップ用 x1 コネクタでは, 12V(0.5A)以上, サーバ用 x1, x4, x8, x16 では 12V(2.1A)以上です.

本ボードはサーバをターゲットにしました. すべてのファンクショ

ンをフルに動作させた場合 , ワーストケースで消費電力が12V(3.3A) となり , 12V(2.1A)を超えてしまいます .

システムを設計する際は消費電力を見積もった上で,使用するスロットの消費電力に注意してください.

## 表 A-1 スロットの最大消費電流

PCI Express アドイン・カードに供給できるスロットの最大消費電力は用途によって異なる、例えばデスクトップ用 x1 コネクタでは 12V( 0.5A )以上,サーバ用 x1 , x4 , x8 , x16 では 12V( 2.1A )以上になる.

| 最大消費電流        | デスクトップ用 | サーバ用            | グラフィックス用 |  |
|---------------|---------|-----------------|----------|--|
|               | x1 コネクタ | x1, x4, x8, x16 | x16 コネクタ |  |
| 電源電圧          | 10W     | 25W             | 75W      |  |
| 3.3V ± 9 %    | 3A      | 3A              | 3A       |  |
| 12V ± 8 %     | 0.5 A   | 2.1A            | 3.3 A    |  |
| 3.3Vaux ± 9 % | 375m A  | 375mA           | 375mA    |  |

Pro

1

2

3

4

5

App 1

App2

イズである Linear Technology 社の LTC3026 を使用しています. LTC3026 は,バイアス用にチップ・インダクタが必要になります(5V 電源があればインダクタは不要). しかし,3mm×3mmと小型なことに加え,入出力コンデンサとして低容量のセラミック・コンデンサを利用できるので,設計が簡単です.実装面積を小さくできるため選定しました(図3).

#### 2)FPGA コア用電源:スイッチング電源で小電流化

FPGA のコア電源とI/O電源は,ボードの中で最も電流が必要です。今回の電源仕様としては,12Vを入力して1.0V,2.5V,3.3Vの3種類を出力する必要があります。前述したLTM4600なども候補になりますが,コストと実装面積を考慮して多出力スイッチング・レギュレータICLTC3773(Linear Technology社)を選定しました。

多出力ICを選択する場合は,3フェーズ動作のICにする必要があります.3フェーズ動作の利点を**図**4に示します.3フェーズ動作を行う3出力スイッチング・レギュレータの出力は,それぞれ120°位相がずれてスイッチングし



図3 RocketIO 用電源の構成

 $210 \mu V_{RMS}$  と低ノイズのLDO リニア・レギュレータ「LTC3026」を採用した.バイアス用にチップ・インダクタは必要だが,3mm  $\times$  3mm と小型で,低容量のセラミック・コンデンサを使えるので実装面積を小さくできる.



図4 3フェーズ動作の強みを発揮

3フェーズ動作では,3出力スイッチング・レギュレータの三つのチャネルは,120°位相がずれて動作する.1フェーズ動作に比べ,平均入力電流が大幅(30%~70%)に減少する.

ます.このため,電流パルスが重なり合うオーバラップ時間が大幅に短縮されます.1フェーズに比べ,平均の入力電流が大幅(30%~70%)に減少します.消費電流が少なくなると,安価なバッテリやヒューズ,コンデンサを使用でき,大きなメリットとなります.

今回は,入力耐圧12Vで,3出力20A程度まで供給でき, 出力間のトラッキング制御が可能なLTC3773を選定しま した(図5).

#### 3 )DDR2 SDRAM 用電源:終端対応の電源IC で面積を節約

DDR2 SDRAMの駆動電圧は1.8Vです.また,DDR2 メモリのI/OインターフェースであるSSTL18-I/IIの終端 電圧は0.9Vです(終端用に1.8Vの1/2の0.9Vが必要).

これらの2電源を2デバイスで供給する方法もあります. 今回は実装面積に1番のポイントを置き,DDR/QDRメモリの終端に対応した2フェーズの2出力電源LTC3776 (Linear Technology社)を選定しました(図6).

本ICは小型(4mm×4mm)のQFNパッケージです.実 装面積を小さくできる点が選定の決め手となりました.

#### 4)フェライト・ピーズによる電源ラインのノイズ対策

PCI Express アドイン・カードは構造上, エッジから 12V 電源が入力されています. 図7のように, ボードの右側に配置した各電源デバイスに12V 電源パターンを引き回す必要があります(ボード左側はPCI ブラケット部分からケーブルなどが接続されるため, コネクタなどが配置されている).

今回の場合, DC-DC コンバータの12V 入力(1次側)に現れるスイッチング・ノイズを低減するため,フェライ



**図**5 FPGA **コア用電源の構成** 

3出力20Aまで供給できる,12V入力耐圧のLTC3773を選択した.出力間のトラッキング制御が可能であるため,3電源のシーケンス制御も容易.



図6 DDR2 SDRAM 用電源の構成

DDR2 メモリの終端用に1.8Vの1/2の0.9Vを出力する必要がある。今回は基板の実装面積に一番のポイントを置き、DDR/QDR メモリ終端アプリケーション向けの2出力が可能なLTC3776を選定した。

ト・ビーズBLM18SG121TN1(村田製作所)を用いました. 本ビーズには以下の特徴があり,電源ラインのノイズ対策に使えます.

- 大電流が供給でき,直流抵抗が小さい
- 外部電極のはんだ耐熱性に優れている

図8と図9のようにスイッチング・レギュレータIC(LTC 3773)の12V入力に本ビーズを追加した場合の対策結果を図10に示します.波形は12V電源とGNDの電位差です.フェライト・ビーズによって2.43V<sub>p-p</sub>のスイッチング・ノイズが440mV<sub>p-p</sub>まで低減することが分かります.

DC-DC コンバータを用いた電源設計を行う際には1次側入力に現れるスイッチング・ノイズに注意し,フェライト・ビーズを用いた対策が必要となる場合があります.

## <2 配線パターン設計

PCI Express をはじめとする高速シリアル・インター

フェースは,基板設計によって実際のデータ転送性能に差がでてきます.FPGA(Virtex-5 LXT/SXT)の各電源のパターン作成方法やPCI Expressのピン・アサイン方法などについて説明します.

#### ● 高速トランシーバ用電源にフィルタを挿入

#### 1 )RocketIO **電源の種類と電源パターン**

PCI Express を設計するのに重要な高速トランシーバ (RocketIO)は,表1に示すように,1.2Vと1.0Vの2電源を3種類の電源プレーンに分けています.Virtex-5におけるRocketIO電源のパターン作成例を,図11に示します.

Virtex-5 は従来の FPGA と比べ, FPGA の左側部分に RocketIO電源が集まって配置されています. RocketIO回路プロック(GTP\_DUAL)ごとに電源パターンを三つに分けています. A は1.0V, B は1.2V, C は1.2V の電源パターンになります.

Pro

1

2

3

4

5

App 1

App2



図7 12 (電源パターン

PCI Express 基板の構造上, エッジから 12 V電源が入力され, ボードの右側部分に配置した電源デバイスに 12V電源パターンを引き回す必要がある. ボード左側は各種外部インターフェースのコネクタなどを配置した.



図8 フェライト・ビーズによる対策

ボード右側に配置されている DC-DC コンバータの1次側入力(12V)に現れるスイッチング・ノイズを低減するため、フェライト・ビーズ BLM18SG121TN1 (村田製作所)を用いてノイズ対策を行った.



**図**9 LTC3773 **フェライト・ビーズによる対策** DC-DC コンパータの1次入力側にフェライト・ビーズ BLM18SG121TN1 を実装しノイズ対策を行った

#### 図10 12 V 電源フェライ ト・ピーズによる対 策結果

フェライト・ビーズに よって,図( a )に示す 2.43Vp-p のスイッチン グ・ノイズが図( b )に 示す 440mV<sub>p-p</sub>まで低 減した





(a) フェライト・ビーズなし

(b) フェライト・ビーズあり

#### 2) Rocket IO 用電源のローパス・フィルタの構成

RocketIO 電源はRocketIO 回路ブロック(GTP\_DUAL) ごとに設定されています. Xilinx 社は, GTP\_DUAL ごと

#### 表1 RocketIO 用電源の種類

Virtex-5 の高速トランシーバ(RocketIO)には,1.2V(MGTAVCC\_PLL,MGTVTT\_TX,MGTVTT\_RX,MGTVTT\_RX),1.0V(MGTAVCC)の2電源が必要になる.

| RocketIO 専用ピン | 説明                                  |
|---------------|-------------------------------------|
| MGTAVCC       | GTP_DUAL タイルのアナログ電源                 |
| MGTAVCC_PLL   | PLL と REFCLK 分配用電源                  |
| MGTVTTRX      | Rx回路と終端用電源                          |
| MGTVTTTX      | Tx回路と終端用電源                          |
| MGTVTTRXC     | レジスタ・キャリブレーション用電源<br>(デバイスにつき 1 ピン) |

にフェライト・ビーズとコンデンサによるローパス・フィルタを構成することを推奨しています.

今回は,コンデンサとして高周波特性に優れた3端子コンデンサNFM18PC224R0J3(村田製作所製)とフェライト・ビーズBLM18EG221SN1(村田製作所製)を用いてローパス・フィルタを構成しました.

2個のGTP\_DUALに対して1個のローパス・フィルタを構成できるので,部品の実装点数を減らせます.

またRocketIO電源から発生したすべてのノイズが3端子コンデンサを通過することになり,ノイズ対策を効果的に行えます.(図12)

3端子コンデンサはESL(等価直列インダクタンス)が低いことが特徴です.その性能を生かすには基板上のパターンのESLを低くする必要があります.以下に3端子コンデンサを使用した基板設計のポイントを説明します(図13).



図11 PCI Express **部の**RocketIO **電源** 従来のFPGA と比べVirtex-5 は,FPGA の左側部分にRocketIO電源が集まって配置されており,GTP\_DUAL タイルごとに電源パターンが分かれている.A は MGTAVCC 1.0V,B は MGTVCC\_PLL 1.2V, C は MGTVTT\_TX RX 1.2V の電源パターンを示す.



図12 RocketIO 電源のローパス・フィルタの構成

本ボードでは , コンデンサとして高周波特性に優れた3端子コンデンサ「NFM18PC224R0J3 ( 村田製作所 )とフェライト・ピーズ「BLM18EG221SN1 ( 村田製作所 )を用いてローパス・フィルタを構成した

- グラウンドのビア・ホールを複数設置するとビア・ホー ルのESL低減に効果的
- ●表層とグラウンドの層間をできるだけ小さくする(グラ ウンドのビア・ホールの長さを短くする)とESL低減に
- FPGA 直下の Rocket IO 電源パターン周辺をグラウン ド・パターンによって分離すると FPGA 側で発生した 人 イズの閉じ込め効果がある

実際のレイアウトを図14に示します.

#### ● FPGA コア用電源に3端子コンデンサを利用

本ボードでは, FPGA のコア電源(1.0V)を安定供給する 必要があります、そのためにはパスコンの設置が重要です、 Xilinx 社の Virtex-5 PCB Designer's Guideにはパスコン の必要個所や使用個数について記載されています(http:// direct.xilinx.com/bvdocs/userguides/ug203.pdf).

本資料を参照した場合,例えば Virtex-5の XC5VLX 110T FF1136では, コア電源用のパスコンとして0.22µF が17個必要です.

本ボードの設計では、コア電源が FPGA の真ん中に集 まって配置されていることに着目しました. FPGA 直下の コア電源パターンと直流電源の間に3端子コンデンサを介 すことにより,効率的にノイズ対策を行えました.0.22μF

のパスコンを17個から2個に削減できました(図15).

#### ● DDR2 用電源にベタ・パターンを使用

ここでは本ボードのDDR2 SDRAM 用電源パターンにつ いて解説します.

今回使用した FPGA の真ん中のバンクは, コンフィグ レーション/クロック入力が中心のI/Oなので, DDR2メモ リ・インターフェースとしては使用しません、チップの右 側バンクを使用しました.

Pro

1

2

3

5

App 1

App 2

DDR2メモリのDQ/DSの等長配線は,形状やサイズ ほかの部品との位置から実装上厳しい点があります,本 ボードでは、FPGA-DDR2メモリ間の等長配線で膨らんだ パターンを覆うようにDDR2メモリ部を全面ベタにしまし た.1.8Vの $V_{tt}$ 電源には負荷(ノイズ源)近傍にパスコンを 配置しました(図16).

#### ● PCI Express エッジの配線は表層のみを使用

Viretex-5のPCI Express エンドポイント・ブロック内 には,リンクの初期化時に自動的に極性を反転させる回路 が含まれています、差動信号のTxの+側をRxの+側





図14 RocketIO 用電源パターン

高速トランシーバ回路ブロック(GTP DUAL タイル)二 つごとに, FPGA 直下の RocketIO 電源パターンと MGT 用直流電源の電源パターンを,3端子コンデンサを介し て直列に接続している. 各RocketIO電源ピンと3端子 コンデンサとの接続パターンを示す.アイカ工業提供.



#### 図13 3端子コンデンサのレイアウト

3端子コンデンサはESL( 等価直列インダクタ )が低いことが特徴である. その性能を生かすには基板 上のパターンのESLを低くすることでより効果的にノイズ対策が行える、3端子を使用した基板設計 のポイントを示す.村田製作所提供.

#### 図 15 FPGA **コア用電源パ** ターン

コア電源がFPGAの真ん中に集まって配置されていることに着目した・FPGA直下のコア電源パターンと直流電源の間に3端子コンリクの22μFのパスコンを17個から2個に削減できた・アイカ工業提供・





図16 DDR2 用電源パターン

FPGA-DDR2間の等長配線で膨らんだパターンを覆うように DDR2部を全面ベタにした . 1.8V の  $V_{tt}$ 電源には負荷( ノイズ源 ) 近傍にパスコンを配置した . アイカ工業提供 .

## PCI Express パワーアップ・シーケンス

コラム2

写真B-1 PRECISION670での実測検証時の様子

筆者らは実際に Dell 社のパソコン PRECISION 670 を使用し,今回開発 したボードの CCLK の周波数とコンフィグレーション時間を測定した. FPGA を使用したPCI Express ボードの設計では,コンフィグレーション ROM から FPGA にデータをロードする時間に注意が必要です. PCI Express 規格では,パソコンの電源立ち上がりから PCI Express リセットが解除されるまで100ms 以上となっています( 図B-1). PCI Express リセットが解除される前に,FPGA のコンフィグレーションが完了しなければなりません.

FPGA の回路規模が増えればコンフィグレーション時間も増えます.システムを設計する場合,FPGA のコンフィグレーション時間に注意する必要があります.

例えば,XC5VLX110Tを例にとった場合を説明します.コンフィグレーション・モードが Master Select MAP(8ビット)の場合,標準 CCLKに対する出力周波数偏差は±50%となっています(表B-1参照).よって計算上では,コンフィグレーション・レートを27MHzに設



図B-2 PRECISION 670 の実測値(コンフィグレーション・レート 27MHz)

Dell 社の PRECISION 670 で測定した結果,パソコンの電源立ち上がりから PCI Express Reset が解除されるまで420ms となった.コンフィグレーション・レートを27MHz に設定した場合,ロード時間は150ms となった.



図B-3 PRECISION670 **の実測値( コンフィグレーション・レート** 49MHz **)** 

コンフィグレーション・レートを 49MHz に設定すると, CCLK の周波数は 31.3MHz, ロードする時間は 94ms となり, 100ms 以内にコンフィグレーションできる.

に, - 側を - 側につなげる必要はありません. 本評価ボードでは, クロス配線を避けるため**図**17のように接続しています.

本評価ボードでは,部品実装効率を向上し,スタブが短くなるように8ペアのPCI Express 差動信号を何層かに分けて配線しました.

PCI Express エッジ-Midbus プローブ間において, RocketIO 入力信号はすべて L1(部品実装面)に配線しました. Midbus プローブ-FPGA 間は, L1 に 4 ペア, L10 に 3 ペア, L12 に 1 ペア配線しました[図18(a)].

同様にPCI Express エッジ-Midbus プローブ間において, RocketIO 出力ピンはすべて L12( はんだ面 )に配線しました. Midbus プローブ-FPGA は, L12 に 4 ペア, L3 に 4 ペア配線しました( 図 18( b )).

PCI Express 差動配線設計状態を以下に示します.

差動インピーダンス:100

最大配線長: 83.0mm 最小配線長: 47.3mm

Tx レーン間スキュ: 33.0mm Rx レーン間スキュ: 33.3mm

定した場合, CCLK の周波数は最小で13.5MHz, 最大で40.5MHzになります.

筆者らは実際に Dell 社製の PRECISION 670 を使用し,本ボードの CCLK の周波数,コンフィグレーション時間を測定しました(写真 B-1).その結果,パソコンの電源立ち上がりから PCI Express リセットが解除されるまでの時間は 420ms でした.

CCLKのコンフィグレーション・レートを27MHzに設定した場合, CCLKの周波数は31.3MHzで,コンフィグレーションROMから FPGAにデータをロードする時間は150msとなりました(**図**B-2).

またコンフィグレーション・レートを49MHzに設定した場合, CCLKの周波数は31.3MHzで, FPGAにロードする時間は94msとなりました.100ms以内にコンフィグレーションが可能です(**図**B-3).

#### 表B-1 FPGA **のコンフィグレーション・レートの例** (XC5VLX110T)

コンフィグレーション・モードが Master Select MAP(8 ビット)の場合,標準 CCLK に対する出力周波数偏差は $\pm$ 50%である. CCLK のコンフィグレーション・レートを27MHz に設定した場合, CCLK の周波数は計算上,最小で13.5MHz,最大で40.5MHz になる.

| コンフィグレーション  | 最低周波数 | 最高周波数 |
|-------------|-------|-------|
| ・レート( MHz ) | (MHz) | (MHz) |
| 2           | 1     | 3     |
| 17          | 8.5   | 25.5  |
| 27          | 13.5  | 40.5  |
| 35          | 17.5  | 52.5  |
| 49          | 24.5  | 73.5  |
| 60          | 30    | 90    |



図B-1 PCI Express パワーアップ・シーケンス

FPGA を使用した PCI Express 設計では, PROM から FPGA にデータをロードする時間に注意が必要. PCI Express 規格では, パソコンの電源立ち上がりから PCI Express リセットが解除されるまで 100ms 以上となっている. PCI Express リセットが解除される前に, FPGA のコンフィグレーションが完了している必要がある.

Pro

1

2

3

4

5

App **1** 

App2

最大ペア内スキュ: 0.085mm

#### ● 表層はBGA ピン間 1 本、内層は 2 本で信号を引き出す

Virtex-5 はボール・ピッチが 1.00mm で完全にアレイ配 列されたフリップチップ BGA パッケージを提供していま す.ボード上でこれらのLSIを効率良く配線することは設 計者にとって困難な課題です.本ボードの設計では,高速 インターフェース部分の配線を優先し,配線に必要な層数 を最適化しました.

1mm ピッチBGA の配線引き出しに必要な層数の目安を 表2に示します、例えば本ボードのように、1136ピンの パッケージを用いる場合,10列の信号を配線するのに最低 8層必要です. 本ボードではPCI Express/SFP/MMCXコ ネクタ, DDR2 などの配線も含め, トータル12層になりま

した.

L1(部品面)ではBGAピン間に配線1本で,内層ではピ ン間に配線2本で引き出しています(図19).

## 3<sup>></sup> 高速データ転送のための FPGA 設計

PCI Express において広帯域の転送を行う場合, CPU な どを介さずにメモリ間で直接データをやりとりするDMA (Direct Memory Access)が必須です.ここではFPGAを 用いたPCI ExpressのDMA 転送実現例を解説します.

#### ● ハード・マクロを用いてサンプル・デザインを構成

DMA転送回路の実現例として本ボード「TB-5V-LX110T-PCIEXP」のサンプル・デザインについて解説し



(a) 極性を反転せず接続した場合



(b) 極性を反転し接続した場合

#### 図17 Virtex-5 による PCI Express ピン・アサイン

リンクの初期化時に Rx 側が対応するので , ( a )のように Tx の + 側を Rx の + 側に , - 側は - 側 につなげる必要はない.本ボードでは,クロス配線を避けるため(b)のように直接接続した.

#### 表2 BGA の配線引き出しに必要な層数

1mm ピッチBGAパッケージの配線引き出しに必要な層数の 目安を示す、例えば、1136 ピンの FPGA では10 列の信号を 配線するのに最低8層以上必要となる.アイカ工業提供.

| BGA ピン数       | 256     | 676     | 1156    | 1521    |
|---------------|---------|---------|---------|---------|
| 配列            | 16 × 16 | 26 × 26 | 34 × 34 | 39 × 39 |
| 引き出し<br>配列    | 6列      | 8列      | 10列     | 14列     |
| BGA ピン間<br>1本 | 4層      | 6層      | 8層      | 12層     |
| BGA ピン間<br>2本 | 2層      | 3層      | 4層      | 6層      |

## 図18

#### PCI Express の配線

部品実装効率の向上とスタブが短くなる様 にPCI Express 配線層を何層かに分けた. FPGA から見たとき RocketIO 入力ピンが 部品実装面側の PCI Expressエッジ~ Midbus プローブ間8ペアは(a)のように L1 に配線した. 同様にRocketIO 出力ピン がはんだ面側の PCI Expressエッジ~ Midbusプローブ間8ペアは(b)のように L12 に配線した.





(b) はんだ面

ます、サンプル・デザインは DVI 入力した画像を DDR2 メ モリでバッファし、PCI Express にてDMA 転送する回路 構成になっています.DMA 転送回路はPCIE\_USERで構 成しています(図20).

PCI Express は Xilinx 社の「LogiCORE PCI Express Endpoint Block plus」を使用して実現しています.これは Virtex-5のハード・マクロを使用するため,無償で使用で きます. CoreGenerator という Xilinx 社のツールを使用す

れば,マクロをGUI上で設定できます(図21).

ハード・マクロを使用しているため PCI Express 部分の 論理ブロック使用量が少なくなります. 例えばソフト・マ クロを使用した場合にはおよそ5000スライスなのに対し て,ハード・マクロの場合は1000スライス程度です(図 22). XC5VLX50T の場合, サンプル・デザインのスライ ス使用率は43%と、ソフト・マクロを使用した場合と比べ て少なくてすみます.

Pro

1<sub>mm</sub> 0.1mm 1mm 1mm 0.5mm 0.1mm 0.5mm

#### **図**19 BGA パッケージの配線

(a) 部品面

部品面ではピン間1本で引き出し,内層ではピン間2本で引き出している. 本来,1列目,2列目までは部品面側(L1層)だけで引き出せるが,本ボード では高速インターフェース部分など差動配線が多いため、スルー・ホールで ほかの層へ切り返して配線した.アイカ工業提供.





Xilinx 社の IP コアはこ のGUIから設定および 生成を行う.



0.45mm (b)内層

#### 図20 全体構成図

「TB-5V-LX110T-PCIEXP」のサンプル・デザインの全体構成を示す . Xilinx 社のLogiCORE PCI Express エンドポイント Block Plus を使用して PCI Express を実現している. IP コアのユーザ・ インターフェース部分にて DMA コントローラ(DMAC)を構成.

図22 ソフト・マクロとハード・マクロ比較 ソフト・マクロとハード・マクロを使用したと きのリソース使用率の例を示す. ソフト・マク ロに比べてハード・マクロではFPGA内のデバ イス使用率を抑えられる.

| デバイス       | スライス             | BlockRAM      | BUFG      | GTP_DUAL | PLL_ADV  | PCIE_     |
|------------|------------------|---------------|-----------|----------|----------|-----------|
| XC5VLX50T  | 3144/7200( 43% ) | 25/60( 41% )  | 7/32(21%) | 4/6(66%) | 1/6(16%) | 1/1(100%) |
| XC5VLX110T | 3286/17280(19%)  | 25/148( 16% ) | 7/32(21%) | 4/8(50%) | 1/6(16%) | 1/1(100%) |





**図**23 DMA **転送アクセス・フロー** 

サンプル・デザインでのDMA 転送のアクセス・フローを示す.1 回のDMAにおいて1フレームの画像を転送する.1ラインずつ DPRAMにパッファし,PCI Expressで転送している.

#### 表3 サンプル・デザインでの転送速度( Dell 社 XPS 710 にて評価 )

| 画像サイズ | レーン数 | フレーム・レート(フレーム/s) | 転送レート( Mbps ) |
|-------|------|------------------|---------------|
|       | × 1  | 690              | 207           |
| QVGA  | × 4  | 2570             | 775           |
|       | × 8  | 4200             | 1282          |
|       | × 1  | 173              | 208           |
| VGA   | × 4  | 664              | 798           |
|       | × 8  | 1080             | 1324          |
|       | × 1  | 67               | 209           |
| XGA   | × 4  | 262              | 806           |
|       | × 8  | 430              | 1328          |



図24 アプリケーション・ソフトウェア起動画面

サンプル・デザイン評価用のアプリケーションを示す.アプリケーション GUI上で,転送速度,フレーム・レート,転送画像を確認できる.



#### 図25 転送速度計算イメージ

1回のDMAで考えた際、SDRAMのリード・レイテンシなど転送データに依存しない部分は、1回のDMAにかかる時間が短いほど転送速度に影響を与える.

#### ● サンプル・デザインの DMA 転送速度を測定

サンプル・デザインでは,エンドポイント側から連続してメモリを書き込む DMA 転送を実現しています.手順は以下の通りです.

- (1)1 ライン分のデータの保存を完了したら DMA 転送をスタート
- (2)データ転送の間にもう一つの DPRAM にデータを保存(図23)

1回のDMA において1フレームのデータ転送を行っており,1フレームのデータ量を Max Payload Size で分割して転送しています.

サンプル・デザインと米国 Dell 社のパソコン XPS 710を使った場合の転送速度は, x1で約200Mbps, x4で約780Mbps, x8で約1300Mbpsと算出されました(**表**3). 転送速度の算出には専用のソフトウェアを使用しました(**図**24).

転送速度は接続先のシステムに依存する部分があります. 設計を始める前にアドイン・カードと接続先のシステムを 使って転送速度の目安を確認することも良いのではないで しょうか.

転送速度の計算にはDDR2にデータをバッファする時間も含まれています。DDR2へのリード・コマンド発行からデータ出力までの時間は、画像サイズやレーン数に依存しません。オーバヘッドとなる割合が1DMA転送にかかる時間によって変わります。

図25に転送速度計算のイメージを記しました.データ 転送を行っている時間をデータC>データB>データAと すると,データCに比べデータAの方がDDR2のリード・ レイテンシが転送時間に占める割合が大きくなります.デー タCの方が,転送効率が良いといえます.

今回のサンプル・デザインは,3種類の画像サイズを選

#### 表4 チップセットの持つ Max Payload Size の例

| チップセット             | 最大ペイロード・サイズ<br>(バイト) |
|--------------------|----------------------|
| Intel E7525        | 256                  |
| Intel 955X Express | 128                  |
| Intel 975X Express | 128                  |
| Intel 3000         | 128                  |
| Intel 5000p        | 256                  |

択できる(1回のDMAによる転送データ量が変化する)ため,DMA転送を開始してからDDR2のリードを開始します.転送データ量が一定であればDMA転送の開始前からDDR2のバッファを行い,転送効率を上げられます.

#### ● パケットの最大データ転送量を最適に設計

トランシーバは,最大データ転送量(Max Payload Size)を超えるデータ量の TLP(Transaction Layer Protocol)を生成してはいけません. レシーバは,設定された値と同じサイズのデータ量(TLPあたり)を処理する必要があります. 規格上設定可能なデータ量は  $128 \sim 4096$  バイトです.

ただし実際の転送の際の Max Payload Size は,エンドポイントのみで決定するわけではありません.接続相手の Max Payload Size にも影響されます.

転送時の Max Payload Size がどのように決定されるのか, 一例を示します. エンドポイントの Max Payload Size が 4096 バイトで,接続相手(チップセット)の Max Payload Size が 128 バイトの場合, 転送時の Max Payload Size は 128 バイトになります(小さい方の Max Payload Size が採用される).

エンドポイントの Max Payload Size と転送時の Max Payload Size は以下に記されています.

エンドポイントの Max Payload Size: Device Capabi lities Register[2:0] Base Specification 7.8.3)

#### 表5 転送速度とペイロード・サイズの関係(×4)

| ペイロード・サイズ<br>(バイト) | 転送レート<br>(Mbps) | 理論値との比 |
|--------------------|-----------------|--------|
| 32                 | 569             | 56.90% |
| 64                 | 706             | 70.60% |
| 128                | 792             | 79.20% |

転送時の Max Payload Size: Device Control Register 「7:5 Tasse Specification 7.8.4)

Device Control Register[7:5]の値はPCIコンフィグレーション後に決定します.

表4にチップセットの持つ Max Payload Sizeの例を示します.現在,パソコンに搭載されているチップセットのMax Payload Size は,128バイトと256バイトの2種類です.エンドポイントとしては,512バイトの Max Payload Size を持っていれば十分だといえます.

TLPのPayloadとして128バイト,64バイト,32バイトの3種類のサイズでDMA転送を行った結果を表5に示します.x4で,すべて同じ条件で測定しています. Payloadのサイズが小さいほど転送速度が低くなっていることが確認できます.

この結果から、広帯域の転送を行うためには、一つの TLPに許容される最大のPayloadを乗せることが好ましい と分かります.

すずき・まさひと いまい・あつし 東京エレクトロン デバイス株式会社

#### <筆者プロフィール> -

**鈴木正人**. 東京エレクトロン デバイス株式会社, スペシャリストグループリーダー. 高速インターフェース担当.

**今井 淳**. 東京エレクトロン デバイス株式会社, スペシャリストグループ. 今回のボード開発担当.

DESIGN WAVE MOOK 好評発売中

## 組み込みソフトウェア開発スタートアップ

ITエンジニアのための組み込み技術入門

Design Wave Magazine編集部 編 B5変型判 244ページ 定価 2,310 円(税込) JAN9784789837194

CQ出版社 〒170-8461 東京都豊島区巣鴨1-14-2 販売部 ☎ (03)5395-2141 振替 00100-7-10665

Pro

1

2

3

4

5

App 1

App**2**